WIKI使用導(dǎo)航
站長百科導(dǎo)航
站長專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計算
- 微博營銷
- 虛擬主機(jī)管理系統(tǒng)
- 開放平臺
- WIKI程序與應(yīng)用
- 美國十大主機(jī)
Sphinx/字符集、大小寫轉(zhuǎn)換和轉(zhuǎn)換表
來自站長百科
當(dāng)建立索引時,Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對每個詞做大小寫轉(zhuǎn)換,于是“Abc”,“ABC”和“abc”都被當(dāng)作同一個詞(word,或者更學(xué)究一點(diǎn),詞項term)
為了正確完成上述工作,Sphinx需要知道:
- 源文本是什么編碼的;
- 那些字符是字母,哪些不是;
- 哪些字符需要被轉(zhuǎn)換,以及被轉(zhuǎn)換成什么.
這些都可以用 charset_type 和 charset_table 選項為每個索引單獨(dú)配置. charset_type 指定文檔的編碼是單字節(jié)的(SBCS)還是UTF-8的。 charset_table 指定了字母類字符到它們的大小寫轉(zhuǎn)換版本的對應(yīng)表,沒有在這張表中出現(xiàn)的字符被認(rèn)為是非字母類字符,并且在建立索引和檢索時被當(dāng)作詞的分割符來看待。
注意,盡管默認(rèn)的轉(zhuǎn)換表并不包含空格符 (ASCII code 0x20, Unicode U+0020) , 但是這么做是 完全合法的. 這在某些情況下可能有用,比如在對tag云構(gòu)造索引的時候,這樣一個用空格分開的詞集就可以被當(dāng)作一個單獨(dú)的查詢項了.